查看原文
其他

中国的三项研究表明,经典计算机将彻底瓦解谷歌的量子霸权

光子盒研究院 光子盒 2021-12-15

光子盒研究院出品

 


NISQ时代的一个重要里程碑是谷歌53量子比特“悬铃木”量子处理器,它可以在200秒内执行随机电路采样任务,而同样的任务估计需要在Summit上运行10000年。最近在祖冲之2.0(56量子比特)和祖冲之2.1(60量子比特)量子处理器上的两次实验刷新了这一记录。

 

另一方面,经典模拟算法和底层硬件也不断改进。例如,2020年,阿里巴巴量子计算团队使用张量网络方法估计[1],在Summit超级计算机上模拟“悬铃木”的53量子比特和20层循环的电路采样只需要20天。最近祖冲之2.0论文估计,使用Summit对“悬铃木”的实验进行经典模拟采样需要耗费16天,而对“祖冲之2.0”的实验进行经典模拟采样则需要耗费8年。

 

在2021年3月的一篇arXiv论文中,中国科学院的张潘及其学生提出了一种big-head张量网络方法[2],使用60个英伟达GPU组成的小型计算集群在5天的时间内完成了谷歌的量子霸权实验。线性交叉熵基准保真度(FXEB)为0.739,远高于谷歌的结果。

 

如果按John Preskill最早的定义,量子计算机计算的速度达到超级计算机的1010倍以上才算实现量子霸权,那么谷歌的量子霸权实际上早就打破了。但是在绝对时间方面,还没有一项研究证明经典计算机可以超过悬铃木的200秒。而最近中国的三项研究表明,经典计算机模拟谷歌随机电路采样的耗时缩短到200秒以下已经不存在任何障碍。

 

在10月27日的一篇arXiv论文[3]中,国家超算中心(无锡)在新的神威超级计算机上开发了一个基于张量的高性能随机量子电路模拟器,将谷歌“悬铃木”的模拟采样时间从之前宣称的1万年缩短至304秒。

 

同一个团队的另一项研究[4]显示,基于定制张量网络收缩算法在神威超级计算机执行采样任务需要一周的时间,并使用新一代神威重新定义了“量子霸权”基线。

 

图1 在(a)悬铃木、(b)祖冲之2.0和(c)祖冲之2.1的电路上模拟相同采样任务(产生100万个与量子处理器具有相同XEB保真度的位串)的总运行时间(带圆圈的绿色虚线)。

 

在这两项研究以及今年3月中科院的研究中,获得的都是相关样本。然而,如果模拟的目标不仅是通过XEB测试,还满足获得不相关样本的约束,就像在“悬铃木”实验中一样,那么张量网络需要重复收缩数千次,使得计算成本在实践中难以承受。

 

为此,中国科学院的张潘带领其团队提出了一种新的方法来经典地解决这个问题,只需收缩相应的张量网络一次,并且在获得大量具有目标保真度的不相关样本方面比现有方法要高效得多。对于具有53个量子比特和20层循环的“悬铃木”量子电路,他们在一个有512个GPU的计算集群上花费了大约15个小时。作者估计,如果他们的算法能够在具有百亿亿次性能的现代超级计算机上高效实现,理想情况下模拟将花费几十秒,这比谷歌的量子硬件要快。

 

 

张潘团队的方法基于从量子电路转换而来的三维张量网络(图2)的收缩。的单次收缩产生,i = 1, 2, … L,μ= 1, 2, … l,表示L(随机选择)个不相关的位串组的振幅,每个组包含L个位串。


包含保真度为F的近似状态小部分条目,称之为稀疏状态(sparse-state)。基于稀疏状态,他们进行重要性采样,从一个组中获得一个样本,最后从近似概率生成L个不相关样本,即从保真度为F的量子电路的输出分布中生成L个近似样本。

在产生大量不相关的近似样本方面,张潘团队的算法比现有算法效率更高。在n = 53个量子比特、m = 20层循环的悬铃木电路上,使用512个GPU在大约15小时内成功生成了保真度F ≈ 0.0037的L = 220个近似样本。作者表示,这是第一次经典地解决了n = 53个量子比特和m = 20层循环的悬铃木“量子霸权”电路(保真度大于谷歌的硬件样本)的采样问题。

 

他们的模拟方法具有几个区别于现有方法的显著特征:

 

(1)在电路中的几个位置引入特定的泡利误差,即在相应的三维张量网络中“挖洞”(drilling holes),如图2所示。挖洞方法降低了对目标值的保真度,但同时降低了计算的时间复杂度,即在收缩中用计算复杂度换取保真度。


(2)通过挖洞和张量切片,探索张量网络中的低秩结构。利用“悬铃木”电路fSim门的特殊性质,可以打破网络中的许多边,大大降低计算成本,同时仅略微降低保真度。

 

(3)本文的收缩方法,称之为具有Z字形收缩顺序的稀疏状态方法。它允许仅使用具有受限空间复杂度的单次收缩(本文中为230)来获得大量(L×l)个位串的振幅,即稀疏状态

与今年3月提出的big-head张量网络方法[2]相比,本文提出的算法可以使用单次收缩产生大量不相关样本,而不是[2]中的大量相关样本。换句话说,通过一次收缩,[2]中的big-head方法精确地模拟了电路输出分布的一个小的子空间,而本文提出的方法以目标保真度近似地模拟了整个空间。此外,尽管[2]中的方法可以通过XEB测试,但其性能对XEB的定义非常敏感。在这里,他们直接使用保真度,而不需要引入XEB作为保真度的代理。

 

图2 对应于具有53个量子比特和20层循环的悬铃木量子电路的三维张量网络。最左边的一层表示初始状态,最右边的一层表示最终状态,红色圆圈则表示二维布局上的53个量子比特。张量网络中有4个洞,旨在大大降低收缩的计算复杂度。每个洞都是通过打断选定的2量子比特门中的两条边和伴生边来创建的,即移除整个2量子比特门。使用稀疏状态方法收缩三维张量网络的结果是L=220组振幅,每组包含L=26=64个位串振幅。也就是说,他们计算了226=67108864位串的近似振幅,并最终从中采样了220个不相关的位串。


如前文所述,张潘团队将具有53个量子比特和20层循环的悬铃木量子电路转换为三维张量网络在模拟之前,他们首先简化张量网络,因为有许多收缩步骤可以预先进行,而不会干扰下面的过程。然后将张量网络分为两部分,头部和尾部,如图3所示。

 

图3 将三维张量网络分为两部分。

 

他们在的收缩中引入了6条局部切片边(不影响的收缩),空间和时间复杂度分别为230和2.3816 × 1013。收缩会产生一个大小为245的张量vhead由于无法存储,所以他们枚举了vhead的16个条目,创建了216个张量网络收缩的子任务,每个子任务对应于16个二进制变量的配置。

 

在每个子任务中,vhead被分割成大小为229的张量,作为的边界。对于53个量子比特和20层循环的悬铃木电路,设置L=220,l=26,即将位串组织为220个独立组,每个组包含26个位串。它充当了的另一个边界。在收缩时,他们引入了7条局部切片边,他们的稀疏状态收缩方案的空间和时间复杂度分别为230和2.9425 × 1013

整个计算(用于完成216个子任务)的整体时间复杂度为3.489 × 1018,略低于之前计算大批量相关位串振幅的工作[2],以及计算小批量相关位串的工作[1]。


为了提高GPU效率,在收缩期间采用了分支合并策略。分支合并后,的GPU效率为31.76%,为14.27%,总体效率为18.85%。关于复杂性、估计保真度和GPU效率的详细数据列在表1中。

 

表1

 

他们使用Complex64作为收缩中的数据类型。的一个子任务收缩时间约为112秒,收缩时间约为315秒,完成一个子任务的总收缩时间为427秒。他们使用有512个英伟达Tesla V100 SXM3 GPU和32GB内存的计算集群,在大约15小时内完成了216个子任务的整个模拟。收缩代码是使用Pytorch(1.7.2)和cudatoolkit(10.1)实现的。

在文章最后,作者表示,使用更适合张量收缩的库,如cuQuantum库,预计计算效率可以大大提高。此外,随着百亿亿次超级计算机(每秒1018次浮点运算)即将研制成功,如果本次模拟能够在百亿亿次超级计算机上高效实现,原则上整体模拟时间可以减少到几十秒,比谷歌的硬件实验还要快。

 

参考文献:

[1]https://arxiv.org/abs/2005.06787

[2]https://arxiv.org/abs/2103.03074

[3]https://arxiv.org/abs/2110.14502

[4]https://arxiv.org/abs/2111.01066

[5]https://arxiv.org/abs/2111.03011


—End—

相关阅读:

打破谷歌量子霸权!经典计算机扳回一城

中国量子霸权之路,走了二十年

同一天,中国两次宣布达到量子计算优越性

中科大又双叒实现量子计算优越性

《科学美国人》:中国在全球量子竞赛中处于领先地位

中国再次实现量子计算优越性,全方位回顾量子计算的发展

祖冲之2.1实现更大规模的量子计算优越性,比超算快1亿倍


#诚邀共建国内首个量子垂直招聘平台#

光子盒将为中国境内的研究机构和企业提供一个免费的垂直招聘信息发布渠道,欢迎有需求的机构或企业直接联系光子盒。(微信:Hordcore)

你可能会错过:
: . Video Mini Program Like ,轻点两下取消赞 Wow ,轻点两下取消在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存